زمانى که اسپایدر spider یک صفحه HTML را مشاهده مى کرد
زمانى که spider گوگل یک صفحه HTML را مشاهده مى کرد، به دو نکته توجه مى کرد: کلمات درون صفحه، در کجا کلمات پیدا شده اند. کلماتى که در عنوان اصلى یا عناوین فرعى و یا سایر موقعیت هایى که داراى اهمیت نسبى هستند، قرار دارند براى جست وجوى بعدى کاربر مورد توجه خاص قرار مى گرفتند. spider گوگل هر کلمه معنى دارى در صفحه را فهرست مى کرد و از کلمات a an, the صرف نظر مى کرد. سایر spider ها از روش هاى متفاوتى استفاده مى کردند. در کل تمامى این روش ها معمولاً سعى مى کند تا عملکرد spider را سریع تر کند، به کاربران اجازه بدهد تا با کارایى بهتر و بهینه تر جست وجو کنند و یا هر دو آنها. به عنوان مثال، بعضى spider ها کلماتى که در عنوان ها، عنوان هاى فرعى و لینک ها وجود دارند یا کلماتى که بارها در صفحه تکرار مى شوند و هر کلمه اى در بیست خط اولیه متن را نگهدارى مى کند. سایت Lycos از این روش استفاده مى کند. سایر سیستم ها، از قبیل AltaVista، هر کلمه در صفحه، شاملa an, the و سایر کلمات که بى اهمیت هستند را هم لیست مى کنند.
ایجاد فهرست
ایجاد فهرست زمانى که spider ها وظیفه یافتن اطلاعات از صفحات شبکه را به اتمام رساندند (البته باید در نظر داشته باشیم که این وظیفه هرگز واقعاً تمام نمى شود، خاصیت تغییر دائمى شبکه به این معنى است که spiders ها همیشه در حال حرکت و جست وجو هستند)، موتور جست وجو باید این اطلاعات را به شکلى که مفید باشد، ذخیره کند. دو مولفه کلیدى براى در دسترس قرار دادن اطلاعات جمع آورى شده براى کاربران وجود دارد: اطلاعات ذخیره شده با داده ها - روشى که توسط آن اطلاعات فهرست مى شود. در آسان ترین حالت، موتور جست وجوگر مى تواند تنها کلمه و URL را ذخیره کند. در حقیقت، این روش براى موتورى با کاربرد محدود است، زیرا در این حالت راهى وجود ندارد براى اینکه تعیین کند آیا کلمه در بخش مهم یا بخش بى اهمیتى از صفحه استفاده شده است، آیا کلمه تنها یک بار یا چندین مرتبه تکرار شده است یا صفحه لینک هایى به صفحات دیگرى که شامل آن کلمه هستند، دارد. به عبارت دیگر راهى براى ایجاد لیستى رتبه بندى شده که تلاش مى کند تا مفیدترین و بهترین صفحات را در بالاى لیست نتایج جستجو قرار بدهد، وجود ندارد.
حرکت به سوی کارایی بهتر در موتورهای جستجو
براى به دست آوردن نتایج بهتر، بیشتر موتورهاى جست وجو اطلاعات بیشترى علاوه بر کلمه و URL ذخیره مى کنند. موتور ممکن است تعداد دفعاتى که کلمه در صفحه تکرار شده است را ذخیره کند، یا ممکن است مقدارى را به هر ورودى اختصاص بدهد و زمانى که کلمات در عناوین، عنوان هاى فرعى و لینک ها ظاهر مى شوند ارزش اختصاص یافته به آنها بیشتر مى شود. هر موتور جست وجوگر تجارى، فرمول متفاوتى براى ارزش گذارى کلمات فهرست خود دارد. این مسئله یکى از دلایلى است که موجب مى شود جست وجوى یک کلمه در موتورهاى جست وجوگر متفاوت، لیست هاى متفاوتى را ارائه بدهد و صفحاتى با ترتیب هاى متفاوت ارائه شود. داده ها براى صرفه جویى در فضاى ذخیره سازى رمزگذارى مى شوند. مثلاً در صفحه گوگل اطلاعاتى از قبیل اینکه آیا کلمه با حروف بزرگ بوده است، اندازه فونت آن، موقعیت کلمه و سایر اطلاعاتى که به رتبه بندى آن کمک مى کند را به صورت بیت و بایت ذخیره مى کند. در نتیجه میزان بسیار زیادى از داده ها مى تواند به شکل بسیار فشرده اى ذخیره شود. بعد از اینکه اطلاعات فشرده شد، براى فهرست شدن آماده است. هدف از ایجاد یک فهرست این است که باعث شود تا بتوانیم اطلاعات را با سریع ترین حالت ممکن پیدا کنیم.
ایجاد فهرست وبسایتها در موتور جستجو
به طور کل، تنها چند راه براى ایجاد فهرست وجود دارد، اما یکى از مهمترین و موثرترین روش ها، ایجاد جدول hash است. در این روش فرمولى به کار مى رود تا به هر کلمه یک ارزش عددى اختصاص بدهد. پرسش و جست وجوى انجام شده توسط کاربر مى تواند خیلى ساده باشد، حتى یک کلمه. براى پرسش هاى پیچیده تر لازم است تا از عملگرهاى بولین (AND, OR, NOT, NEAR,) و... استفاده کنید تا بتوانید شرایط جست وجو را گسترش بدهید.
به طور خلاصه عملکرد یک موتور جست وجو به این صورت است: نرم افزار spider با جست وجو در سایت هاى مختلف لیستى از کلمات و جایى که قرار دارند فراهم مى کند، سپس براساس سیستم ارزش گذارى خود فهرستى رتبه بندى شده تهیه مى کند، داده ها را رمزگذارى مى کند و سرانجام اطلاعات را براى دسترسى کاربران ذخیره مى کند.
در جستجوهایى که از عملگرهاى بولین استفاده مى شود، جستجوهاى لفظى است. موتور دقیقاً همان کلمات یا عبارتى که وارد شده است را جست وجو مى کند. زمانى که کلمات ورودى داراى چندین معنى هستند، جست وجوى صحیح آنها مشکل است. در این حالت، اگر براى شما تنها یکى از معانى آن کلمه مهم باشد، احتمالاً شما نمى خواهید سایر صفحات را که شامل معانى دیگر کلمه است ببینید. شما مى توانید یک جست وجوى لفظى ایجاد کنید که تا حدودى معنى هاى ناخواسته را حذف کند، اما بهتر این بود که خود موتور جستجو مى توانست این کار را انجام بدهد. یکى از حوزه هاى تحقیق در موتورهاى جست وجوگر، جست وجو براساس مفهوم است. به عنوان مثال، استفاده کردن از تحلیل هاى آمارى صفحاتى که شامل کلمات یا عباراتى است که شما جست وجو مى کنید، براى اینکه صفحات دیگرى را که ممکن است شما به آن علاقه داشته باشید پیدا کند. بدیهى است که در یک موتور جست وجوگر مبتنى بر مفهوم، اطلاعات ذخیره شده براى هر صفحه، بیشتر است. هنوز بسیارى از گروه ها تلاش مى کنند تا نتایج و عملکرد این نوع از موتورهاى جست وجو را افزایش دهند. قلمرو دیگرى که پژوهشگران درباره آن تلاش مى کنند، پرسش ها به زبان طبیعى نامیده مى شود. منظور از این پژوهش این است که شما بتوانید پرسش تان را به گونه اى تایپ کنید مثل اینکه آن را از شخصى که کنار شما نشسته است مى پرسید و نیازى نباشد تا از عملگرهاى بولین یا ساختارهاى پیچیده براى پرسش استفاده کنید.
سخن آخر
معروف ترین سایت جست وجو به شیوه پرسش به زبان طبیعى، سایت AskJeeves.com است. این سایت تنها با جملات ساده کار مى کند، اما تلاش بسیارى انجام مى شود تا این روش جست وجو گسترش یابد تا بتواند سئوالات پیچیده تر را هم بپذیرد. همچنان تلاش هاى بسیارى براى افزایش کیفیت و ارائه خدمات بیشتر موتورهاى جستجوگر انجام مى شود و هر روز شاهد خبرهاى جدیدى در این زمینه هستیم و رقابت بین سایت هاى داراى موتور جستجوگر بیشتر و بیشتر مى شود.
ایران جدید ایرانیو